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(54) Verfahren zur Spracherkennung 

(§7) Fur die Spracherkennung von in Satzen verbundenen 
Wortfolgen wird ein Verfahren vorgeschlagen, welches bei 
Anwendungen mit definierter Syntax diese in ein Sprachmo- 
dell, vorzugsweise ein Bigram-Sprachmodell eines HMM-Er- 
kennungssystems integriert und insbesondere mehrfach 
auftretende Worter durch Indizierung eindeutig kennzeich- 
net. Dadurch ist sine Durchfuhrung des Erkennungsprozes- 
ses wie ohne Integration der Syntax-Information mogltch. 
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Beschreibung 


Die Erfindung betrifft ein Verfahren zur Spracher- 
kennung nach dem Oberbegriff des Patentanspruchs 1. 

Bei der Erkennung verbundener d. h. flieBender Spra- 
che, die eine beliebige Kombination aller Worter zulaBt, 
steigt die Fehlerrate im Vergieich zur Einzelworterken- 
nung erheblich an. Urn dem entgegenzuwirken, kann 
beispielsweise Wissen uber zulassige Wortfolgen in so- 
genannten Sprachmodellen gespeichert und bei der Er- 
kennung verwertet werden. Die Anzahl zulassiger Satze 
kann dadurch erheblich eingeschrankt werden. 

Sprachmodelle werden gebrauchlich als N-gram Mo- 
delle definiert, wobei N als Tiefe des Modells bezeichnet 
wird und die Anzahl aufeinanderfolgender Worter in- 
nerhaib einer Wortfolge angibt, die bei der aktuellen 
Bewertung einer Wortfolgenhypo these beriicksichtigt 
werden. Wegen des mit zunehmenden N schnell steigen- 
den Aufwands im ErkennungsprozeB wird bevorzugt 
das mit N = 2 besonders einfache Bigram-Modell ange- 
wandt, welches nur Zweierkombinationen von Wortern 
beriicksichtigt. Die Sprachmodelle konnen weiter ver- 
einfacht werden durch die Zusammenfassung von Wor- 
tern, die im gleichen Kontext auftreten, ohne aber unbe- 
dingt dieselbe Bedeutung haben zu miissen, zu Wort- 
gruppen (z. B. alle Wochentage). Statt einzelner Wort- 
iibergange kann in den Sprachmodellen der Obergang 
von einer Wortgruppe zur anderen betrachtet werden. 

In Informatik Forsch. Entw. (1992) 7, S. 8—97, sind 
Grundprobleme der automatischen Erkennung flieBen- 
der Sprache eingehend behandeit und Losungsansatze 
aus der Sicht der statistischen Entscheidungstheorie be- 
schrieben. Im Vordergrund steht die stochastische Mo- 
dellierung von Wissensquellen fur Akustik und Linguis- 
tik z. B. in Form von Phonem-Modellen, Aussprache- 
Lexikon und Sprachmodell. 

Aus 'The HARPY Speach Understanding System" in 
Readings in Speech recognition, 1990, Morgan Kauf- 
mann Publishers Inc. ist ein Spracherkennungssystem 
mit stark eingeschrankter Anzahl zulassiger Satze be- 
kannt. Die die Zulassigkeit bestimmenden syntaktischen 
und semantischen Einschrankungen konnen in Gram- 
matik-Gleichungen formuliert und als Graph dargestellt 
werden. Urn von der vollstandigen, aber mit groBem 
Verarbeitungsaufwand verbundenen Grammatik- Defi- 
nition zu einem kompakten Sprachmodell mit vertret- 
barem Verarbeitungsaufwand zu gelangen, werden eini- 
ge Vereirifachungen eingefuhrt 

Solche Vereinfachungen sind aber teilweise nur mog- 
lich, wenn fur das Sprachmodell in Kauf genommen 
wird, daB in der urspriinglichen Grammatik-Definition 
unzulassige Wortfolgen wieder als zulassig erscheinen. 
Bei dem HARPY-System werden schliefilich die Worter 
durch ihre phonetischen Definitionen ersetzt und so ein 
phonetisches Modell fur einen Ganzsatzerkenner ge- 
schaffen. 

In der US 4 277 644 ist ein Verfahren zur Spracher- 
kennung beschrieben, das eine begrenzte Menge zulas- 
siger Satze erkennt Die die Anzahl zulassiger Satze 
begrenzende Syntax ist in Form eines Endlichen Auto- 
maten (Finite State Automata, FSA) in einem Wortfol- 
gespeicher abgelegt. Das Einbinden eines Endlichen Au- 
tomaten in einen Spracherkenner bedeutet einen in 
Struktur Funktionalitat genau auf diesen Automaten 
ausgerichteten Aufbau des Erkennungssystems. 

Aufgabe der vorliegenden Erfindung ist es, ein Ver- 
fahren zur Spracherkennung anzugeben, daB bei gerin- 
gem Verarbeitungsaufwand eine hohe Erkennungslei- 


stung aufweist. 

Die Erfindung ist im Patentanspruch 1 beschrieben. 
Die Unteranspruche enthalten vorteilhafte Ausgestal- 
tungen und Weiterbildungen der Erfindung. 
5 Die Erfindung ermogiicht durch die unterschiedbare 
Kennzeichnung mehrfach in der Grammatik der Menge 
der zulassigen Satze auftretender Worter im Sprachmo- 
dell die zulassigen Vorlaufer eines bestimmten Wortes 
an bestimmter Satzposition implizit vollstandig zu erfas- 
io sen, ohne daB explizit alle zulassigen vorangegangenen 
Obergange zu diesem Wort gespeichert werden mus- 
sen. Dies entspricht einem N-gram-Sprachmodell mit 
von der jeweiligen Wortposition abhangigem variablem 
N. Die unterscheidbare Kennzeichnung mehrfach auf- 
15 tretender gleicher Worter sei im folgenden als Indizie- 
ren der Worter bezeichnet 

Vorzugsweise kann die Syntaxinformation in einem 
Bigram-Sprachmodeli integriert werden. Der Erken- 
nungsprozeB, der vorzugsweise ein HMM (Hidden 
20 Markov Model)- ErkennungsprozeB ist, kann in gleicher 
Weise ablaufen wie ohne die Integration der Syntax in 
das Sprachmodell. 

Eine wesentliche Erweiterung eines fur die akustische 
Worterkennung herangezogenen gebrauchlichen Aus- 
25 sprachelexikons ist nicht notwendig, da alien im Sprach- 
modell unterschiedlich indizierten Exemplaren des glei- 
chen Wortes ein und derselbe Lexikoneintrag zugeord- 
net werden kann. Die Bigram-Syntaxinformation kann 
dann vorteilhafterweise dadurch beriicksichtigt werden, 
30 daB dem aus einer Folge von Wortuntereinheiten beste- 
henden Lexikoneintrag entsprechend dem mehrfachen 
Auftreten im Sprachmodell mehrere Wortendeknoten 
zugewiesen werden. 

Bei der Spracherkennung nach dem erfindungsgema- 
35 Ben Verfahren werden eingegebene Sprachsignale im- 
mer syntaktisch richtigen Satzen zugewiesen. Vorzugs- 
weise ist daher die Moglichkeit vorgesehen, daB das 
Erkennungssystem eine Eingabe zuruckweist. Vorteil- 
haft hierfur ist die Zuweisung eines Wahrscheinlich- 
40 keitswerts an erkannte Satze und Vergieich der Wahr- 
scheinlichkeitswerte mit einer vorgebbaren Ruckwei- 
sungsschwelle. Die globale Satzwahrscheinlichkeit, nor- 
miert auf die Satzlange, bildet ein gut geeignetes MaB 
fur die Zuweisung der Wahrscheinlichkeitswerte. In die 
45 globale Satzwahrscheinlichkeit werden insbesondere 
die Wahrscheinlichkeiten bei der akustischen Erken- 
nung der einzelnen Worter einbezogen. Beriicksichtigt 
werden konnen daruberhinaus auch Wahrscheinlichkei- 
ten aus statistischen Verteilungen von Wortfolgen im 
so Sprachmodell oder Haufigkeiten von Satzen in Trai- 
ningsmengen. 

Die Wahrscheinlichkeitsbewertung wird vorzugswei- 
se auch wahrend des laufenden Erkennungsprozesses 
durchgefuhrt und als Grundlage fur ein Ausblenden von 
55 Pfaden mit zu geringer Wahrscheinlichkeit herangezo- 
gen. 

Die Erfindung ist nachfolgend unter Bezugnahme auf 
die Abbildungen noch eingehend veranschaulicht. 
Die Fig. la zeigt ein einfaches Beispiel eines Netz- 
60 werk-Graphen fur ein Sprachmodell, welches aus den 
Wortern wl bis w6 zwischen dem Satzanfang Start und 
dem Satzende Ende die Wortfolgen wlw3w6, wlw4w6, 
w2w3wl, w2w5wl als Satze zulaBt. Die aus dem Gra- 
phen ableitbare Bigram-Information uber die zulassigen 
65 Nachfolger zu jedem Wort wl bis w6 ist als Tabelle in 
Fig. lb angegeben. In einem auf diese Bigram-Informa- 
tion gestiitzten Sprachmodell erscheinen aber nicht zu- 
lassige Satze wie z. B. wl w3wl w4w6 als zulassig. 
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Die demgegeniiber wesentliche Anderung gemaB der 
Erfindung ist aus Fig, 2a und Fig. 2b ersichtlich. Die 
durch den Netzwerk-Graphen nach Fig. la festgelegte 
Menge der zulassigen Satze enthalt die Worter wl und 
w3 jeweils in zwei syntaktisch verschiedenen Positio- 
nen. Diese mehrfach vorkommenden Worter sind nun- 
mehr in Fig. 2a als voneinander unterscheidbare Exem- 
piare durch Indizierung gekennzeichnet, wobei der In- 
dex _m mit in als ganzzahliger Laufzahl innerhalb des 
Graphen in an sich beliebiger Reihenfolge auf die Mehr- 
fach-Exemplare eines Wortes vergeben werden kann. 
Wtchtig ist, daB durch die Indizierung Worter in syntak- 
tischen Positionen, die nicht ohne Anderung der Zulas- 
sigkeit aller Satze vertauscht werden konnen, eindeutig 
gekennzeichnet werden. Zur Vereinheitlichung der No- 
tation sind-auch alle einmalig auftretenden Worter mit 
einem Index_l versehen. Die Bigram-Informationsta- 
belle in Fig. 2b zu dem Graphen von Fig. 2a zeigt sich 
gegenuber der Tabelle in Fig. lb um die Mehrfach- 
Exemplare erweitert, gibt aber nunmehr eine dem Gra- 
phen exakt gleiche Vorschrift uber alle zulassigen Satze 
wieder und weist einen geringeren mittleren Verzwei- 
gungsgrad auf. 

Da die phonetischen Reprasentanten fiir alle Mehr- 
fach-Exemplare desselben Wortes identisch sind, 
braucht das diese phonetischen Reprasentanten enthal- 
tende Aussprache-Lexikon nicht im gleichen MaBe er- 
weitert werden. Es kann fiir alle Mehrfach-Exemplare 
desselben Wortes auf denselben Lexikon-Eintrag zu- 
ruckgegriffen werden, wobei lediglich am Wortende 
wieder eine eindeutige Zuordnung zu den jeweils zulas- 
sigen Nachfolgern ermoglicht werden muB. Hierfur 
konnen vorteilhafterweise zu einem betroffenen Lexi- 
kon-Eintrag mehrere Wortendeknoten vorgesehen sein, 
welche die unterschiedlichen Syntax- Einschrankungen 
der durch Indizierung unterscheidbaren Wortpositio- 
nen berucksichtigen. 

Bei der vorteilhaften Zusammenfassung von Wortern 
zu Wortgruppen treten an die Stelle der Worter wl_l 
bis w6_l im Netzwerk-Graph und in den Bigram-Tabei- 
len jeweils Wortgruppen, die unterscheidbar indiziert 
sind. Die Mitglieder einer Wortgruppe sind entspre- 
chend durch Indizieren eindeutig zu kennzeichnen. 

Fig. 3 veranschaulicht die Abfolge des Erkennungs- 
prozesses fiir eine im Beispiei nach Fig. 2a, 2b als Satz 
zulassige Wortfolge w2w3wl. Ausgehend von einem 
Satzanfangsknoten Start sind als erstes Wort nur wl 
oder w2 zulassig. Der Beginn eines Sprachsignals wird 
daher auf mogliche Obereinstimmung mit wl und/oder 
w2 uberpruft Hierzu wird auf die in einem Aussprachel- 
exikon L abgelegten sprachlichen Charakteristika die- 
ser beiden Worter zuruckgegriffen. Gebrauchlicherwei- 
se enthalten die Lexikoneintrage zu jedem Won mehre- 
re Wortuntereinheiten mit Vorschriften uber deren zu- 
lassige Aufeinanderfolge. Die Vorgehensweise bei der 
Worterkennung kann beispielsweise wie bei dem er- 
wahnten Harpy-System durch Durchlaufen einer baum- 
artigen Suchpfadstruktur erfolgen mit fortlaufender Be- 
wertung der einzelnen untersuchten Pfade und Aus- 
blenden von niedrig bewerteten Pfaden. 

In Fig. 3 ist fiir die Suchstruktur vereinfacht eine li- 
neare Kette mehrerer Wortuntereinheiten WU (Kxeise) 
eingetragen. 

Die Lexikoneintrage umfassen wie bereits erwahnt 
auch Wortendeknoten WE (Quadrate in Fig. 3), wobei 
fiir mehrfach an verschiedener Position im Graphen der 
Fig. 2a auftretende gleiche Wdrter entsprechend deren 
Indizierung ein Lexikoneintrag mehrere Wortendekno- 


ten aufweist, die jeweils einem der indizierten Exempla- 
re desselben Worts durch den ubereinstimmenden In- 
dex zuordenbar sind und die zulassigen Nachfolgewor- 
ter festlegen. Der Index eines Wortes wird beim Zugriff 
5 auf das Lexikon in der Weise berticksichtigt, daB mittels 
des Index die richtige Auswahl unter dem ggf. mehreren 
Wortendeknoten getroffen wird. 

Bei dem in Fig. 3 skizzierten Beispiei ist angenom- 
men, daB das Sprachsignal keine ausreichende phoneti- 
10 sche Obereinstimmung mit dem Lexikoneintrag zum 
Wort wl zeigt und dieser Teil des Suchpfads abgebro- 
chen wird, noch bevor das Wortende von wl erreicht ist 
Hingegen zeige das Sprachsignal eine gute Oberein- 
stimmung mit dem Lexikoneintrag zum Wort w2, so daB 
is dieser Suchpfad weiterverfolgt wird. Da w2 im Sprach- 
modell nur an einer Position auftritt, existiert nur ein 
Wortendeknoten, von dem aus sich die Suche verzweigt 
auf die Oberprufung der Worter w3 und w5 als zulassige 
Nachfolger, die erfindungsgemaB durch Indizieren als 
20 w3_2 und w5_l eindeutig gemacht sind. Fiir w5 sei wie- 
der mangelnde phonetische Obereinstimmung mit dem 
fortgesetzten Sprachsignal und Abbruch dieses Teils 
des Suchpfads angenommen, wogegen der Suchpfad 
uber w3 bis zur Verzweigung auf die beiden Worten- 
25 deknoten mit Indizes _1 und _2 weiterverfolgt werde. 
Mittels des Index 2 aus dem indizierten Zugriff auf den 
Lexikoneintrag w3 wird der gleich indizierte Worten- 
deknoten fiir die Weiterfuhrung des Suchpfads jausge- 
wahit, woraus sich wl_2 als einziges zuiassiges Nachfol- 
30 gewort ergibt Dessen Lexikoneintrag wird wieder mit 
dem fortgesetzten Sprachsignal verglichen. Bei ausrei- 
chender Obereinstimmung wird der Suchpfad uber den 
mit _2 indizierten Wortendeknoten zum Satzehde wei- 
ter gefiihrt. 

35 Im Realfall werden vorzugsweise mehrere Suchpfade 
vollstandig bis zum Satzende verfolgt und danach einer 
weiteren Auswahl unterzogen, bei der beispielsweise 
durch Schwellwertsetzung und/oder Vergleich der glo- 
balen Satzwahrscheinlichkeiten oder anderer an sich 
40 bekannter BewertungsgroBen einer der erkannten Sat- 
ze als bester Satz ausgewahlt und weiter verarbeitet 
wird, z. B. als auszufuhrendes Kommando. 

Patentanspriiche 

45 

1. Verfahren zur Spracherkennung von aus mehre- 
ren Wortern eines gegebenen Wortschatzes zu- 
sammengesetzten Satzen, bei welchem eine be- 
grenzte Menge zulassiger Satze und ein Sprachmo- 

50 deil, in welches die Syntax der zulassigen Satze in- 
tegriert ist, vorgegeben wird, dadurch gekenn- 
zeichnet, daB fiir Worter, die in der Menge der 
zulassigen Satze mehrfach in verschiedenen syn- 
taktischen Positionen auftreten, in dem Sprachmo- 
55 dell rnehrfache und voneinander unterscheidbare 
Exemplare mit den fur die jeweilige Position gulti- 
gen syntaktischen Einschrankungen vorgegeben 
werden, und daB durch fortlaufende Beriicksichti- 
gung der syntaktischen Einschrankungen des 
60 Sprachmodells wahrend des laufenden Erken- 
nungsprozesses nur die Obereinstimmung eines ak- 
tuellen Sprachsignals mit zulassigen Wortfolgen 
uberpruft wird. 

2. Verfahren nach Anspruch 1, gekennzeichnet 
65 durch einen HMM-ErkennungsprozeB. 

3. Verfahren nach Anspruch 1 oder 2, dadurch ge- 
kennzeichnet, daB als Sprachmodell ein Bigram- 
Modell vorgegeben wird. 
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4. Verfahren nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB den im Sprachmodell 
mehrfach vorgegebenen Exemplaren eines Wortes 
derselbe Eintrag in einem Aussprachelexikon zuge- 
wiesen wird, der durch eine Auswahl von Worten- 5 
deknoten eindeutig einem der mehreren Exempla- 

re zugeordnet wird. 

5. Verfahren nach einem der Anspruche 1 bis 4, 
dadurch gekennzeichnet, daB den bei dem Erken- 
nungsprozeB uberpruften zulassigen Wortfoigen 10 
Wahrscheinlichkeitswerte zugewiesen und diese ei- 
nem Schwellwertvergleich unterzogen werden. 

6. Verfahren nach Anspruch 5, dadurch gekenn- 
zeichnet, daB als Wahrscheinlichkeitswert die glo- 
bale Wortfolgenwahrscheinlichkeit, normiert auf 15 
die aktuelle Wortfolgeniange ermitteit wird. 
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